#destilación on-policy

Supervisión densa y actualizaciones dispersas en OPD

Analizamos la estructura de actualizaciones en OPD: son pequeñas, dispersas y aprovechan subredes, revelando claves para optimización post-training.

2026-06-15 · 2 min

Cuando el contexto regresa: hacia una internalización robusta

Descubre cómo la reintroducción del contexto puede degradar el rendimiento de modelos destilados y cómo un nuevo regularizador de consistencia lo soluciona.

2026-06-11 · 3 min

Cuando el contexto regresa: internalización robusta en destilación on-policy

¿Sabías que reintroducir el contexto a un modelo destilado puede empeorar su rendimiento? Descubre cómo un ligero regularizador lo evita.

2026-06-11 · 2 min

RLCSD: Aprendizaje por Refuerzo con Autodestilación Contrastiva

RLCSD mejora la autodestilación al contrastar señales con pistas correctas e incorrectas, superando la deriva de estilo y obteniendo mejores resultados que GRPO en razonamiento.

2026-06-11 · 3 min

Estabilizando destilación on-policy para razonamiento MLLM

Descubre cómo la normalización global estabiliza la destilación on-policy en modelos multimodales, mejorando el razonamiento y evitando explosiones de gradiente.

2026-06-09 · 2 min

Superando la barrera del tokenizador: destilación on-policy entre modelos

Descubre cómo destilar modelos de lenguaje entre familias sin compartir tokenizador. Nuevo algoritmo de mapeo de tokens logra mayor eficiencia.

2026-06-09 · 3 min

Cómo escapar de la trampa del acuerdo KL en destilación on-policy

Nuevo método KAT detecta trampas de acuerdo KL en destilación on-policy, mejorando precisión 2.66% y reduciendo tiempo de entrenamiento 59.73%.

2026-06-09 · 1 min

SG-OPD: Destilación on-policy con puerta de signo y muestreo por fases

SG-OPD introduce un verificador binario para mejorar la destilación on-policy, superando a métodos anteriores en problemas de razonamiento matemático.

2026-06-09 · 2 min

Destilación on-policy para transformar modelos autoregresivos en difusivos

Descubre cómo OPDLM transforma modelos autoregresivos en difusivos con destilación on-policy, reduciendo tokens de entrenamiento hasta 7000x sin perder rendimiento.

2026-06-08 · 1 min

ViCuR: Destilación multimodal on-policy con señales visuales recuperables

ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.

2026-06-05 · 2 min

ViCuR: Pistas visuales como privilegio recuperable en destilación multimodal

ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.

2026-06-05 · 3 min

Influencia encubierta entre modelos de lenguaje

Descubre cómo los modelos de lenguaje pueden influirse entre sí de forma encubierta, propagando comportamientos sin dejar rastros visibles. Analizamos interfaces y mitigaciones.

2026-06-04 · 3 min

Filtrar, luego repesar: Nueva granularidad en destilación on-policy

FiRe-OPD mejora la destilación on-policy con filtrado de trayectorias y repesado suave de tokens. Obtén +6.25 en AIME 2024 y +18.81 en Miner ¡Optimiza tus LLMs!

2026-06-03 · 1 min

TrOPD: Destilación On-Policy con Región de Confianza

TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks.

2026-06-02 · 2 min

Destilación On-Policy en Región de Confianza

TrOPD estabiliza la destilación on-policy en LLMs con regiones de confianza. Supera a OPD, EOPD y REOPOLD en razonamiento y código. ¡Descubre cómo!

2026-06-02 · 2 min

OmniOPD: Destilación On-Policy sin Logits con Verificación Especulativa

Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.

2026-06-02 · 3 min

SCOPE: Calibración de Señales en Destilación On-Policy Dual

Descubre cómo SCOPE mejora el razonamiento de los LLMs con destilación adaptativa dual, logrando un 11.42% más de precisión.

2026-06-02 · 4 min

Críticas débiles hacen aprendices fuertes: destilación on-policy para supervisión escalable

Descubre cómo las críticas de modelos débiles pueden potenciar modelos de lenguaje fuertes mediante destilación on-policy, mejorando razonamiento y alineación para supervisión escalable.

2026-06-02 · 2 min